Enqueued related words: State-Value Function

Action-Value Function

释义 Definition

动作-价值函数：在强化学习中，用来表示在某个状态 s 下采取某个动作 a 后，按照某一策略继续行动时所能获得的期望累计回报（长期收益）的函数，常记为 **Q(s, a)**。最常见的是 **Qπ(s, a)**（在策略 π 下）或最优的 **Q*(s, a)**。该术语也常被简称为 Q-function。

发音 Pronunciation (IPA)

/ˈækʃən ˈvæljuː ˈfʌŋkʃən/

例句 Examples

The action-value function tells you how good each action is in a state.
动作-价值函数会告诉你在某个状态下，每个动作有多“好”（带来多大长期收益）。

In Q-learning, the agent updates the action-value function using the reward and the maximum estimated future value.
在 Q-learning 中，智能体会用即时奖励以及对未来最大价值的估计来更新动作-价值函数。

词源 Etymology

该术语由三部分构成：action（动作） + value（价值/回报） + function（函数）。它并非传统语言演变而来的日常词汇，而是计算机科学与控制/决策理论中为描述“动作带来的期望回报”而形成的专业组合表达；在强化学习文献中通常以 Q(s, a) 表示，其中 Q 来自“quality（质量/好坏程度）”的历史用法（在早期文献里用来表示动作的“好坏”）。

文学与经典著作 Literary Works